智能论文笔记

Retrieval-based Disentanglement with Distant Supervision

Jiawei Zhou , Xiaoguang Li , Lifeng Shang , Xin Jiang , Qun Liu , Lei Chen

分类：自然语言处理 | 人工智能 | 计算机视觉

2022-12-15

Disentangled representation learning remains challenging as ground truth factors of variation do not naturally exist. To address this, we present Vocabulary Disentanglement Retrieval~(VDR), a simple yet effective retrieval-based disentanglement framework that leverages nature language as distant supervision. Our approach is built upon the widely-used bi-encoder architecture with disentanglement heads and is trained on data-text pairs that are readily available on the web or in existing datasets. This makes our approach task- and modality-agnostic with potential for a wide range of downstream applications. We conduct experiments on 16 datasets in both text-to-text and cross-modal scenarios and evaluate VDR in a zero-shot setting. With the incorporation of disentanglement heads and a minor increase in parameters, VDR achieves significant improvements over the base retriever it is built upon, with a 9% higher on NDCG@10 scores in zero-shot text-to-text retrieval and an average of 13% higher recall in cross-modal retrieval. In comparison to other baselines, VDR outperforms them in most tasks, while also improving explainability and efficiency.

translated by 谷歌翻译

PP-YOLOE-R: An Efficient Anchor-Free Rotated Object Detector

Xinxin Wang , Guanzhong Wang , Qingqing Dang , Yi Liu , Xiaoguang Hu , Dianhai Yu

分类：计算机视觉

2022-11-04

Arbitrary-oriented object detection is a fundamental task in visual scenes involving aerial images and scene text. In this report, we present PP-YOLOE-R, an efficient anchor-free rotated object detector based on PP-YOLOE. We introduce a bag of useful tricks in PP-YOLOE-R to improve detection precision with marginal extra parameters and computational cost. As a result, PP-YOLOE-R-l and PP-YOLOE-R-x achieve 78.14 and 78.28 mAP respectively on DOTA 1.0 dataset with single-scale training and testing, which outperform almost all other rotated object detectors. With multi-scale training and testing, PP-YOLOE-R-l and PP-YOLOE-R-x further improve the detection precision to 80.02 and 80.73 mAP. In this case, PP-YOLOE-R-x surpasses all anchor-free methods and demonstrates competitive performance to state-of-the-art anchor-based two-stage models. Further, PP-YOLOE-R is deployment friendly and PP-YOLOE-R-s/m/l/x can reach 69.8/55.1/48.3/37.1 FPS respectively on RTX 2080 Ti with TensorRT and FP16-precision. Source code and pre-trained models are available at https://github.com/PaddlePaddle/PaddleDetection, which is powered by https://github.com/PaddlePaddle/Paddle.

translated by 谷歌翻译

Multi-scale Attention Network for Image Super-Resolution

Yan Wang , Yusen Li , Gang Wang , Xiaoguang Liu

分类：计算机视觉

2022-09-28

通过利用大型内核分解和注意机制，卷积神经网络（CNN）可以在许多高级计算机视觉任务中与基于变压器的方法竞争。但是，由于远程建模的优势，具有自我注意力的变压器仍然主导着低级视野，包括超分辨率任务。在本文中，我们提出了一个基于CNN的多尺度注意网络（MAN），该网络由多尺度的大内核注意力（MLKA）和一个封闭式的空间注意单元（GSAU）组成，以提高卷积SR网络的性能。在我们的MLKA中，我们使用多尺度和栅极方案纠正LKA，以在各种粒度水平上获得丰富的注意图，从而共同汇总了全局和局部信息，并避免了潜在的阻塞伪像。在GSAU中，我们集成了栅极机制和空间注意力，以消除不必要的线性层和汇总信息丰富的空间环境。为了确认我们的设计的有效性，我们通过简单地堆叠不同数量的MLKA和GSAU来评估具有多种复杂性的人。实验结果表明，我们的人可以在最先进的绩效和计算之间实现各种权衡。代码可从https://github.com/icandle/man获得。

translated by 谷歌翻译

Learning Appearance-motion Normality for Video Anomaly Detection

Yang Liu , Jing Liu , Mengyang Zhao , Dingkang Yang , Xiaoguang Zhu , Liang Song

分类：计算机视觉

2022-07-27

视频异常检测是计算机视觉社区的一项具有挑战性的任务。大多数基于任务的方法都不考虑独特的空间和时间模式的独立性，而两流结构则缺乏对相关性的探索。在本文中，我们提出了时空记忆增强了两个流动自动编码器框架，该框架可以独立学习外观正常和运动正常，并通过对抗性学习探索相关性。具体而言，我们首先设计了两个代理任务来训练两流结构，以隔离地提取外观和运动特征。然后，将原型特征记录在相应的空间和时间内存池中。最后，编码编码网络通过歧视者进行对抗学习，以探索空间和时间模式之间的相关性。实验结果表明，我们的框架优于最先进的方法，在UCSD PED2和CUHK Avenue数据集上，AUC达到98.1％和89.8％。

translated by 谷歌翻译

Towards High-Fidelity Single-view Holistic Reconstruction of Indoor Scenes

Haolin Liu , Yujian Zheng , Guanying Chen , Shuguang Cui , Xiaoguang Han

分类：计算机视觉

2022-07-18

我们提出了一个新的框架，以重建整体3D室内场景，包括单视图像的房间背景和室内对象。由于室内场景的严重阻塞，现有方法只能产生具有有限几何质量的室内物体的3D形状。为了解决这个问题，我们提出了一个与实例一致的隐式函数（InstPifu），以进行详细的对象重建。与实例对齐的注意模块结合使用，我们的方法有权将混合的局部特征与遮挡实例相结合。此外，与以前的方法不同，该方法仅代表房间背景为3D边界框，深度图或一组平面，我们通过隐式表示恢复了背景的精细几何形状。在E SUN RGB-D，PIX3D，3D-FUTURE和3D-FRONT数据集上进行的广泛实验表明，我们的方法在背景和前景对象重建中均优于现有方法。我们的代码和模型将公开可用。

translated by 谷歌翻译

PP-OCRv3: More Attempts for the Improvement of Ultra Lightweight OCR System

Chenxia Li , Weiwei Liu , Ruoyu Guo , Xiaoting Yin , Kaitao Jiang , Yongkun Du , Yuning Du , Lingfeng Zhu , Baohua Lai , Xiaoguang Hu

分类：计算机视觉

2022-06-07

如图1所示，光学特征识别（OCR）技术已在各种场景中广泛使用。设计实用的OCR系统仍然是一项有意义但具有挑战性的任务。在以前的工作中，考虑到效率和准确性，我们提出了实用的超轻型OCR系统（PP-OCR）和优化的版本PP-OCRV2。为了进一步提高PP-OCRV2的性能，本文提出了更强大的OCR系统PP-OCRV3。 PP-OCRV3基于PP-OCRV2的9个方面升级了文本检测模型和文本识别模型。对于文本检测器，我们引入了一个带有大型接收场LK-PAN的锅模块，该模块是一个名为RSE-FPN的剩余注意机制的FPN模块和DML蒸馏策略。对于文本识别器，基本模型将从CRNN替换为SVTR，我们介绍了轻量级文本识别网络SVTR LCNET，通过注意力进行CTC的指导培训，数据增强策略TextConaug，由自我审查的TextRotnet，UDML和UDML和UDML和UDML和更好的预培训模型。 UIM加速模型并改善效果。实际数据上的实验表明，在可比的推理速度下，PP-OCRV3的Hmean比PP-OCRV2高5％。上述所有上述型号都是开源的，并且代码可在由PaddlePaddle供电的GitHub存储库Paddleocr中可用。

translated by 谷歌翻译

TO-Scene: A Large-scale Dataset for Understanding 3D Tabletop Scenes

Mutian Xu , Pei Chen , Haolin Liu , Xiaoguang Han

分类：计算机视觉

2022-03-17

许多基本的室内活动，例如饮食或写作，总是在不同的桌面上（例如咖啡桌，写桌）进行。在3D室内场景解析应用程序中了解桌面场景是必不可少的。不幸的是，由于3D桌面场景在当前数据集中很少可用，因此很难通过直接部署数据驱动算法来满足这一需求。为了解决此缺陷，我们介绍了To-Scene，这是一个专注于桌面场景的大规模数据集，其中包含20,740个带有三个变体的场景。为了获取数据，我们设计了一个高效且可扩展的框架，在该框架中开发了众包UI将CAD对象从模型网和Shapenet传递到扫描室的桌子上，然后将输出桌面场景模拟为真实的扫描并自动注释。此外，提出了一种桌面吸引的学习策略，以更好地感知小型桌面实例。值得注意的是，我们还提供了真正的扫描测试集，以验证待机的实际价值。实验表明，经过训练的to-Scene的算法确实在现实的测试数据上工作，而我们提出的桌面感知学习策略极大地改善了3D语义细分和对象检测任务的最新结果。数据集和代码可在https://github.com/gap-lab-cuhk-sz/to-scene上找到。

translated by 谷歌翻译

SNF: Filter Pruning via Searching the Proper Number of Filters

Pengkun Liu , Yaru Yue , Yanjun Guo , Xingxiang Tao , Xiaoguang Zhou

分类：计算机视觉

2021-12-14

卷积神经网络（CNN）具有一定量的参数冗余，滤波器修剪旨在去除冗余滤波器，并提供在终端设备上应用CNN的可能性。但是，以前的作品更加注重设计了滤波器重要性的评估标准，然后缩短了具有固定修剪率的重要滤波器或固定数量，以减少卷积神经网络的冗余。它不考虑为每层预留有多少筛选器是最合理的选择。从这个角度来看，我们通过搜索适当的过滤器（SNF）来提出新的过滤器修剪方法。 SNF专用于搜索每层的最合理的保留过滤器，然后是具有特定标准的修剪过滤器。它可以根据不同的拖鞋定制最合适的网络结构。通过我们的方法进行过滤器修剪导致CIFAR-10的最先进（SOTA）精度，并在Imagenet ILSVRC-2012上实现了竞争性能。基于Reset-56网络，在Top-中增加了0.14％的增加0.14％ 1对CIFAR-10拖出的52.94％的精度为52.94％。在减少68.68％拖鞋时，CiFar-10上的修剪Resnet-110还提高了0.03％的1 0.03％的精度。对于Imagenet，我们将修剪速率设置为52.10％的拖鞋，前1个精度只有0.74％。该代码可以在https://github.com/pk-l/snf上获得。

translated by 谷歌翻译

PP-PicoDet: A Better Real-Time Object Detector on Mobile Devices

Guanghua Yu , Qinyao Chang , Wenyu Lv , Chang Xu , Cheng Cui , Wei Ji , Qingqing Dang , Kaipeng Deng , Guanzhong Wang , Yuning Du

分类：计算机视觉

2021-11-01

更好的准确性和效率权衡在对象检测中是一个具有挑战性的问题。在这项工作中，我们致力于研究对象检测的关键优化和神经网络架构选择，以提高准确性和效率。我们调查了无锚策略对轻质对象检测模型的适用性。我们增强了骨干结构并设计了颈部的轻质结构，从而提高了网络的特征提取能力。我们改善标签分配策略和损失功能，使培训更稳定和高效。通过这些优化，我们创建了一个名为PP-Picodet的新的实时对象探测器系列，这在移动设备的对象检测上实现了卓越的性能。与其他流行型号相比，我们的模型在准确性和延迟之间实现了更好的权衡。 Picodet-s只有0.99m的参数达到30.6％的地图，它是地图的绝对4.8％，同时与yolox-nano相比将移动CPU推理延迟减少55％，并且与Nanodet相比，MAP的绝对改善了7.1％。当输入大小为320时，它在移动臂CPU上达到123个FPS（使用桨Lite）。Picodet-L只有3.3M参数，达到40.9％的地图，这是地图的绝对3.7％，比yolov5s更快44％。如图1所示，我们的模型远远优于轻量级对象检测的最先进的结果。代码和预先训练的型号可在https://github.com/paddlepaddle/paddledentions提供。

translated by 谷歌翻译

PP-ShiTu: A Practical Lightweight Image Recognition System

Shengyu Wei , Ruoyu Guo , Cheng Cui , Bin Lu , Shuilong Dong , Tingquan Gao , Yuning Du , Ying Zhou , Xueying Lyu , Qiwen Liu

分类：计算机视觉

2021-11-01

近年来，图像识别应用程序已迅速发展。在不同的领域中出现了大量的研究和技术，例如人脸识别，行人和车辆重新识别，地标检索和产品识别。在本文中，我们提出了一种实用的轻质图像识别系统，名为PP-Shitu，包括以下3个模块，主体检测，特征提取和矢量搜索。我们介绍了公制学习，深哈希，知识蒸馏和模型量化，包括提高精度和推理速度的流行策略。具有上述策略，PP-Shitu在不同的场景中运行良好，其中一组模型在混合数据集上培训。不同数据集和基准测试的实验表明，该系统在图像识别的不同域中广泛有效。所有上述型号都是开放的，并且代码在PaddlePaddle上的GitHub存储库Paddleclas中提供。

translated by 谷歌翻译